© 作者|孙文奇
机构|中国人民大学高瓴人工智能学院
引言:随着ChatGPT的横空出世与GPT-4的重磅登场,生成式AI(Generative AI)引起了前所未有的关注,基于GPT(Generative Pre-Trained Transformer)的模型在各类NLP和CV任务上取得了惊人的效果。生成式AI模型可以根据训练过的数据创建新的内容、模式或解决方案,一些典型应用包括ChatGPT、Stable Diffusion和DALL·E等(封面图片来自DALL·E)。然而,在推荐系统(RS)领域研究中,受限于推荐系统User/Item ID的范式,以及大多情况下为非通用、非常识知识,因而直接将基于GPT的模型作为推荐模型具有一定的局限性。例如,在电影、图书和音乐等领域推荐场景直接将ChatGPT作为推荐模型可以取得较好的效果,然而,在其他一些领域推荐场景直接利用ChatGPT效果有限。随着各类生成式模型层出不穷,部分研究人员开始考虑如何在RS中有效引入生成式AI。本文主要关注RS和生成式AI可能存在的结合点,调研了RecSys'23等会议录用的若干相关工作,以及最新已公开的若干方法。文章也同步发布在 AI Box 知乎专栏(知乎搜索 AI Box 专栏),欢迎大家在知乎专栏的文章下方评论留言,交流探讨!
Generative Next-Basket Recommendation
这篇论文来自人大和腾讯微信,已被RecSys'23录用,其主要关注于自回归生成范式解决购物篮推荐问题。该论文提出一种自回归生成下一个购物篮商品的推荐模型,即GeRec。现有基于深度神经网络的购物篮推荐工作大多数主要关注用户偏好和预测商品之间的相关性,忽略了下一个购物篮中商品之间可能存在的关系,通常会导致预测商品的同质化。GeRec考虑了商品级别和购物篮级别的多粒度用户偏好,同时考虑了下一个购物篮中商品之间的联系,以自回归方式生成下一个购物篮中商品。实验结果表明,在真实世界购物场景中,GeRec在兼顾性能的情况下,同时提升了下一个购物篮中商品的相关性和多样性。
Recommendation as Instruction Following: A Large Language Model Empowered Recommendation Approach
https://arxiv.org/abs/2305.07001
这篇论文来自人大和腾讯微信,其主要关注于指令微调的大语言模型(LLM)在推荐系统的应用。该论文期望发展一种新的推荐范式,即用户可以灵活的使用自然语言指令来表达自身的需求,而系统通过分析这些指令来实现个性化的推荐,即InstructRec。为此,本文首先形式化了推荐指令的三个关键因素:偏好,意图和任务形式。并基于这些因素的组合实例化了不同的交互场景。本文通过self-instruct的方式,利用一个指令微调过的模型(teacher-LLM)来基于用户的历史行为,评论等数据,生成大量能反映用户意图和偏好的指令数据。利用这些指令数据,微调了Flan-T5。实验结果表明,InstructRec可以一定程度上理解用户需求,在不同的交互场景中取得了较好的效果。
Large Language Models are Zero-Shot Rankers for Recommender Systems
https://arxiv.org/abs/2305.08845
这篇论文来自人大、腾讯微信和加州大学圣迭戈分校,其主要关注于LLM作为推荐模型的零样本排序问题。该论文评测了LLM在推荐系统中的零样本排序能力。具体而言,该论文将推荐问题形式化为给定条件的排序任务,其中用户的历史交互作为条件,召回得到的商品作为候选。通过设计合适的prompt模版,结合条件、候选、排序指令,使得LLM可以执行推荐中的排序任务。实验结果表明,LLM可以基于用户的历史交互实现个性化的排序,但是LLM很难感知到用户历史交互的序列关系;LLM在排序时有position bias和popularity bias,但可以被适当的提示或bootstrapping等策略所缓解。
Can ChatGPT Make Fair Recommendation? A Fairness Evaluation Benchmark for Recommendation with Large Language Model
这篇论文来自中科大和新加坡国立大学,已被RecSys'23录用,其主要关注于LLM作为推荐模型的公平性问题。该论文提出了一个新的LLM作为推荐模型的公平性测评基准,即FaiRLLM。这个基准包括精心设计的指标和一个数据集,其中包括两个推荐场景(音乐和电影)中的八个敏感属性。FaiRLLM通过比较大语言模型在"neutral instructions" (没有包含用户的敏感属性)和"sensitive isntructions" (包含敏感属性)下的推荐结果,来评估将ChatGPT作为推荐模型的公平性。实验结果表明,ChatGPT在生成推荐时对一些敏感属性仍然表现出不公平的现象。
Generative Recommendation: Towards Next-generation Recommender Paradigm
https://arxiv.org/abs/2304.03516
这篇论文来自新加坡国立大学和中科大,其主要关注于生成式推荐新范式。该论文认为,传统的推荐模型往往从商品集合中检索合适的商品来实现个性化推荐。然而,这样的范式可能存在一些问题:(1)已有的人类生成的物品集合并不一定能符合用户多样化的需求;(2)用户往往通过被动的,低效的反馈(如点击),来调节推荐。基于AIGC的蓬勃发展,作者构想的下一代的推荐范式应该具有以下两个目标:(1)通过生成式AI来生成个性化的内容;(2)融入用户指令来指导内容的生成。为了实现上述目标,该论文提出了一个新的生成式推荐范式,即GeneRec。具体而言,首先预处理用户的指令和传统的反馈作为生成的依赖。然后,基于AI editor和AI creator来实例化AI generator,使得GeneRec可以基于用户的需求重新定制已有的商品和创建新的商品。
Large Language Model Augmented Narrative Driven Recommendations
这篇论文来自马萨诸塞大学,已被RecSys'23录用,其主要关注于LLM增强的叙事驱动的推荐(Narrative-driven Recommendation)。该论文提出了一种基于LLM的叙事驱动推荐方法,即MINT。叙事驱动的推荐是指,用户通过描述他们的偏好和背景,例如,旅行者在描述他们的喜好和旅行环境时,征求兴趣点的推荐。MINT利用GPT-3模型根据用户输入生成叙事query,然后使用FLAN-T5模型根据叙事query生成M个分数最高的候选商品,之后根据其与用户叙事query的相关性对其进行排序。实验结果表明,使用LLM从用户-商品交互中创作生成叙事query,并在query和用户-商品交互数据上训练检索模型,是一种训练小参数量的检索模型的有效策略。
FANS: Fast Non-Autoregressive Sequence Generation for Item List Continuation
这篇论文来自香港理工大学和华为诺亚方舟实验室,发表于WWW'23,其主要关注于非自回归方式序列生成在推荐系统中的应用。该论文提出一种快速的非自回归序列生成模型,即FANS,以提高连续生成商品列表的效率和质量。基于Transformer的模型在理解上下文信息和捕获列表中的商品关系方面显示出了前景,然而,在实时工业应用中部署它们是具有挑战的,因为使用自回归生成方式会比较耗时。为此,FANS使用非自回归方式来生成Next-K个商品,代替逐个生成方式。然后,FANS设计了一个两阶段分类器来减少解码时间,代替Transformer模型中原始的分类器。实验结果表明,FANS在兼顾性能的情况下可以显著提高推理效率,在工业环境中也进行了FANS效率的验证。
Generative Sequential Recommendation with GPTRec
这篇论文来自格拉斯哥大学,已被Gen-IR@SIGIR'23录用,其主要关注基于GPT-2架构解决序列推荐问题。该论文提出了基于GPT-2架构的序列推荐模型,即GPTRec。GPTRec使用基于SVD分解的SVD Tokenisation算法将item ID分解为item子ID来解决item embedding表过大问题。同时,提出了一种Next-K推荐策略,来解决Top-K推荐策略不灵活问题。实验结果表明,使用商品子ID的GPTRec可以在减少embedding表40%的情况下,与SASRec模型的性能相当。此外,使用Next-K推荐策略的GPTRec生成的推荐结果在NDCG@10指标上与SASRec相当,为未来研究提供了强有力的起点。
GPT4Rec: A Generative Framework for Personalized Recommendation and User Interests Interpretation
https://arxiv.org/abs/2304.03879
这篇论文来自密歇根大学和亚马逊,其主要关注于GPT-2架构与检索相结合的方式用于推荐系统。该论文认为,现有的推荐模型存在以下限制:(1)未能利用商品的内容信息和NLP模型的语言建模能力;(2)无法解释用户兴趣来提升推荐的相关性和多样性;(3)无法适配更实际的应用场景,例如不断增加新的商品。为此,该论文提出GPT4Rec,利用灵活的生成式框架来处理推荐任务。具体而言,基于用户历史交互的物品,和它们对应的标题 ,GPT4Rec首先利用GPT-2来生成搜索query,然后将query送入搜索引擎(BM25),来基于这个query检索相关商品。实验结果表明,GPT4Rec可以生成多样化的召回商品以及覆盖用户的多样化的兴趣。
Recommender Systems with Generative Retrieval
https://arxiv.org/abs/2305.05065
这篇论文来自威斯康星大学麦迪逊分校和谷歌,其主要关注将生成式检索用于推荐系统。该论文提出一种量化和生成检索相结合的单阶段范式用于推荐系统,即TIGER。现有的推荐系统在使用大规模检索模型时通常采用两阶段的方式:训练双编码器模型将查询和候选商品嵌入同一空间,然后搜索近似最近邻商品,在给定查询嵌入的情况下选择最佳候选商品。TIGER在单阶段中对目标候选商品的ID进行自回归解码,为此,TIGER采用了语义ID而不是随机生成的ID,语义ID是由量化方法生成码字元组。在有了所有商品的语义ID后,就可以训练基于Transformer的序列到序列模型来预测下一个商品的语义ID了。由于该模型以自回归的方式直接预测下一个商品的语义ID(由码字元组组成),因此可以将其视为生成检索模型。实验结果表明,这种单阶段范式取得了较好的性能效果,同时相比现有方法有更好的泛化能力,从而改进了冷启动商品的推荐。
刨根问底——大模型时代对话式推荐系统的新型评测方式
LLM in Medical Domain:一文速览大语言模型在医学领域的应用
一文纵览多样化推荐的现状和发展↓↓↓